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基于 BERTopic 模型 的 国内 智慧 医疗 文献 主题 挖掘 与 演化 趋 
势 分 析 


陈 俊 冶 ““ 王 康 龙 王 涟 ”有 筷 彩 明 田园 ” 

(1. 山西 医科 大 学 管理 学 院 ” 山西 030600; 2. 山西 医科 大 学 附属 肿瘤 医院 山 
西 030600 ) 

摘要 : [目的 /意义 ] 探讨 智 意 医疗 主题 相关 内 容 及 发 展演 化 趋势 ， 为 智 翡 医疗 
发 展 提供 参考 。 [方法 /过 程 ] 基于 知 网 、 万 方 、 维 普 三 大 数据 库 ， 构 建 基 础 词 
典 及 停 用 词 表 ， 通 过 BERTopic 模型 对 智慧 医疗 进行 主题 特征 分 机， 并 建立 线性 
回归 模型 一 一 以 预测 未 来 五 年 发 文 量 。[ 结 果 / 结 论 ] 智慧 医疗 在 未 来 五 年 发 文 
数量 持 上 升 趋 势 ， 并 涵盖 智能 化 、 数 字 化 、 个 性 化 三 个 方向 。 研 究 有 助 于 医院 
加 强 基 础 设备 的 智能 化 建设 ， 健 全 相关 法 律 法 规 及 监管 机 制 ， 国 家 加 强 支 持 力 
度 及 数字 化 设备 的 推广 以 及 该 领域 的 人 才 培 养 ， 推 进 智 意 医疗 的 快速 发 展 。 


关键 词 : 智慧 医疗 BERTopic 线性 回归 方程 ”主题 特征 


“智慧 医疗 ” 指 通过 利用 可 穿戴 电子 设备 、 物 联网 和 移动 网 等 设备 来 连接 人 
员 、 资 源 和 组 织 的 卫生 系统 平台 山 ， 并 借助 机 器 学 习 、 深 度 学 习 等 算法 技术 叫 对 
疾病 进行 智能 决策 的 过 程 申 ， 其 建设 载体 为 智慧 医院 四。2017 年 底 ， 国 家 卫 健 
委 与 中 医 局 联合 发 布 《改善 医疗 服务 计划 (2018 至 2020 年 ) 通知 》， 强调 利用 
“互联 网 十 ”革新 医疗 模式 ， 构 建 智慧 型 医院 ， 随 后 ，2020 年 4 月 ， 国 家 卫 健 委 
发 布 《 关 于 进一步 完善 预约 诊疗 制度 ， 推 进 智慧 型 医院 建设 的 通知 》 明确 将 实 
现 医疗 、 服 务 及 管理 一 体 化 的 智慧 型 医院 作为 未 来 建设 方向 ，2021 年 ， 国 办 又 
出 台 《 公 立 医 院 高 质量 发 展 意见 》 强调 以 信息 技术 驱动 医院 高 质量 发 展 中 。 基 
于 “健康 中 国 2030” 规 划 ， 医 疗 行业 正在 经 历 从 传统 医疗 到 数字 医疗 、 信 息 医疗 ， 
再 通过 数字 医疗 向 智慧 医疗 转变 中。 近年 来 ， 智 慧 医 疗 已 然 成 为 我 国医 疗 行业 
发 展 的 工作 重心 ， 这 对 于 推动 健康 中 国 建设 ， 促 进 人 民 更 智能 、 更 便捷 就 医 起 
着 举足轻重 的 作用 。 本 文通 过 使 用 BERTopic 模型 对 我 国 智慧 医疗 进行 主题 挖掘 
以 及 发 展演 化 分 析 ， 旨 在 为 相关 学 者 通过 借鉴 与 参考 ， 推 动 该 主题 的 深入 探讨 。 
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= 人 料 与 帮 读 
1.1 数据 来 源 


本 研究 选取 知 网 CCNKI)、 万 方 (WanFang) 和 维普 〈VIP) 三 大 数据 库 为 数 
通讯 作者 : 田园 ， 山 西医 科大 学 附属 肿瘤 医院 信息 科 ， 主 任 技师 。 


据 源 ， 发 表 时 间 限 定 为 "2024 年 1 月 31 日 "， 选 取 检 索 词 “智慧 医疗 ”， 进 行 精确 
检索 ， 共 检索 到 文献 8150 篇 。 
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1.2 数据 预 处 理 

本 研究 数据 处 理 有 以 下 步骤 : 1. 通 过 NoteExpress 软件 将 三 个 数据 库 导出 的 
数据 进行 去 重 处 理 ， 并 将 题 录 通 过 excel 格式 导出 。2. 将 不 完整 数据 ， 如 无 发 表 
时 间 、 无 摘要 或 摘要 不 完整 ， 主 题 不 相关 等 数据 进行 剔除 。3. 本 研究 通过 使 用 
jieba 库 对 中 文 文本 进行 分 词 ， 其 中 包括 了 建立 词典 的 分 词 、 停 用 词 去 除 和 基本 
的 过 滤 技 术 进行 数据 预 处 理 。 


1.3 研究 方法 

本 文 首先 使 用 通过 使 用 pandas 库 提取 Excel 文件 中 文献 发 表 数 据 ， 并 将 其 
存储 在 DataFrame 中 ， 通 过 sklearn 库 中 的 LinearRegression 线性 回归 模型 对 年 份 
和 发 表 数量 及 进行 拟 合 ， 预 测 该 主题 后 续 的 发 表 数 量 。 


其 次 ， 本 文采 用 基于 BERT 主题 建 模 算 法 [JBERTopic 进行 主题 识别 和 发 展 
演化 分 析 。 其 中 ，BERTopic 模型 可 以 理解 为 一 个 模块 的 集成 管道 ， 主 要 包括 文 
本 坎 入 、 数 据 降 维 、 聚 类 和 主题 表示 国 ， 见 图 1。 该 模型 首先 通过 paraphrase- 
multilingual-MiniLM-L12-v2 进行 文档 嵌入 、UMAP 算法 降低 嵌入 的 维 数 、 
HDBSCAN 算法 创建 语义 相似 文档 的 聚 类 以 及 c-TF-IDF 算法 进行 候选 关键 词 的 
提取 ， 然 后 对 该 模型 进行 训练 ， 通 过 fit transform 对 输入 文本 问 量 化 、 
Topic model 模型 提取 主题 Topics， 并 且 计 算 主 题 文 档 概率 probabilities， 然 后 使 
用 berTopic 模型 进行 可 视 化 分 析 ， 最 后 使 用 DTM 模型 对 获取 不 同 主题 随时 间 推 
移 的 可 视 化 模型 。 
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1 BERTopic 主题 建 模 

二 、 数据 分 析 
2.1 文献 发 文 情况 

本 研究 通过 使 用 python 语言 与 线性 回归 模型 可 视 化 智慧 医疗 发 文 情况 以 及 
预测 未 来 五 年 的 发 文 情况 。 如 图 2， 智 慧 医疗 相关 文献 于 2009 年 初次 被 发 表 ， 
发 文 数 量 呈 逐年 波动 上 升 趋势 ， 并 于 2021 达到 顶峰 ， 于 2023 年 出 现下 滑 ( 因 
2024 年 文献 只 有 一 月 份 ， 不 做 参考 )。 并 针对 该 主题 通过 使 用 sklearn 库 中 的 
LinearRgression 类 ， 建 立 线性 回归 模型 ， 预 测 该 主题 文献 在 未 来 五 年 的 发 表 数 
量 将 会 持 上 升 趋势 。 综 上 上， 智慧 医 疗 领域 已 经 引起 学 术 界 的 广泛 关注 。 
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2 智慧 医疗 领域 发 文 量 及 未 来 五 年 发 文 预测 


2.2 热点 话题 识别 

本 研究 通过 运用 BERTopic 模型 获取 智 意 医疗 相关 的 8 个 显赫 性 较 高 的 主题 ， 
及 这 些 主题 中 占 比 前 五 的 关键 词 ， 便 于 后 续 的 分 析 。 如 图 3， 通 过 这 些 关 键 词 
可 以 将 这 八 个 显著 性 较 高 的 主题 分 别 概括 为 数字 化 医疗 生态 系统 、 智 慧 老年 健 
康 管 理 、 数 字 化 转型 、 综 合 服务 医疗 网 络 、 医 疗 服务 体验 、 智 能 化 医疗 技术 应 
用 、 数 字 化 健康 管理 、 智 能 医疗 云 服 务 与 管理 。 其 中 这 8 个 主题 分 别 代 表 智 慧 
医疗 的 四 个 方向 .分 别 是 : 基础 设施 建设 和 数字 化 转型 、 健 康 管理 与 网 络 服务 、 
医疗 技术 与 应 用 ， 医 疗 体验 。 由 此 可 知 ， 当 前 智慧 医疗 当前 朝 着 数字 化 、 人 性 
化 、 智 能 化 ， 多 方面 多 维度 发 展 。 
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3 智慧 医疗 主题 词 分 布 可 视 化 


2.3 层次 聚 类 

使 用 BERTopic 模型 进行 层次 聚 类 ， 可 以 更 好 了 解 每 个 主题 之 间 的 关系 ， 并 
提高 数据 的 可 解释 性 。 如 图 4， 其 中 Topic24、Topic10 与 Topic8 体现 智慧 医疗 
在 技术 方面 的 融合 与 创新 ，Topic18 与 Topic2 体现 智慧 医疗 的 基础 建设 以 及 对 经 
济 的 影响 ，Topic27 与 Topic22 体现 银行 与 区 块 链 技 术 在 医疗 中 的 应 用 与 创新 ， 
Topic21、Topic5 与 Topic16 体现 智慧 医疗 提高 使 用 一 些 新 的 技术 提高 疾病 诊治 
的 准确 率 ，Topic16、Topic19、Topic15 与 Topic20 则 体现 出 智能 医疗 背景 下 ， 提 
高 医院 信息 系统 与 智能 设备 的 结合 ， 提 高 医疗 质量 ，Topic30 与 Topic26 体现 医 
疗 信 息 化 建设 中 档案 管理 的 创新 ，Topic28、Topic17 与 Topic13 体现 不 同 不 同 机 
构 对 医院 信息 化 建设 的 重视 以 及 所 作出 的 贡献 ，Topic29 则 体现 出 智慧 医疗 的 快 
速 发 展 以 及 带 来 的 便捷 ，Topicl1 与 Topic6 则 体现 出 智慧 医疗 在 促进 健康 中 国 发 


挥 着 举足轻重 的 作用 ，Topic25、Topic14、Topic4、Topic3、Topic9、Topic0 与 
Topic7，Topic12 体现 智慧 医疗 的 智能 化 、 多 元 化 、 人 性 化 、 数 字 化 ，Topicl 与 
Topic23 体现 智慧 医疗 关注 慢性 疾病 、 老 年 人 及 看 病 不 易 的 医疗 问题 。 
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4 层次 聚 类 图 


2.4 主题 相似 度 热力 图 

本 研究 使 用 HDBSCAN 算法 生成 相似 度 热 力图 。 主 题 之 间 的 相似 度 或 者 相 
关 性 是 通过 颜色 的 深浅 表现 和 四。 如 图 5，Topic0 与 每 一 个 主题 之 间 相关 性 较 高 ， 
可 见 智 慧 医 疗 是 通过 互联 网 、 物 联网 、 智 慧 医 院 等 关键 词 为 载体 进行 的 。 
Topic6 与 Topicl1 呈现 较 高 的 相关 性 ， 可 见 医疗 机 构 通过 使 用 信息 技术 、 大 数据 
以 及 智能 化 医疗 等 手段 促进 全 社会 的 健康 管理 ， 提 高 医疗 的 服务 质量 。 
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Similarity Score 
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30_ 档 案 管理 _ 电 子 档案 _ 信 息 化 建设 
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图 5 主题 相似 热力 
2.5 研究 主题 发 展演 化 趋势 


本 研究 使 用 DTM 对 各 主题 进行 发 展演 化 趋势 分 析 ， 使 用 折线 图 以 及 不 同 颜 
色 呈 现 ， 便 于 对 不 同 主题 进行 比较 及 理解 00。 如 图 6，Topic0 一 直 持 波动 递增 
趋势 ， 于 2019 年 达到 顶峰 ， 后 呈 波 动 下 降 趋 势 。Topic1、Topic9 于 2013 年 之 后 
出 现 呈 缓慢 递增 发 展 ， 其 中 Topicl 在 2017 年 以 及 2021 年 达 顶 峰 后 呈 下 降 趋 势 
发 展 。 其 余 主 题 与 2010 年 之 后 陆续 出 现 ， 并 呈 缓 慢 发 展 趋势 。 


由 图 可 知 ，2019 年 之 后 ， 大 部 分 主题 呈 下 降 趋势 亦 或 是 发 展 缓慢 ， 这 有 可 
能 是 因为 疫情 的 原因 ， 致 使 研究 人 员 重 心 转移 ， 或 因为 技术 相对 成 熟 ， 需 攻克 
更 为 复杂 的 技术 ， 周 期 变 长 ， 抑 或 是 因为 支持 力度 减弱 。Topicl 是 因为 中 国 的 


人 口 老龄 化 日 益 突现 ， 引 起 相关 学 者 关注 。 


Topics over Time 
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图 6 研究 主题 发 展演 化 趋势 


三 、 讨 论 

本 研究 通过 针对 主题 关键 词 、 层 次 聚 类 、 以 及 主题 相似 度 热力 图 可 知 ， 知 
慧 医 疗 包含 了 智能 化 、 个 性 化 以 及 数字 化 三 个 方向 。 因 此 ， 本 研究 从 这 三 个 广 
向 展开 讨论 。 


智慧 医疗 通过 运用 云 计 算 、5G、 人 工 智能 、 物 联网 等 新 技术 ， 可 以 实现 对 
初次 入 院 患 者 进行 多 维度 患者 画像 中 开展 多 方面 的 远程 医疗 (4， 如 远程 医疗 、 
远程 手术 、 远 程 会 诊 等 ， 并 未 平台 患者 就 提 通 过 了 便捷 六 ;智慧 医疗 的 智能 化 使 
得 医疗 服务 水 平 大 幅 提升 ， 医 疗 失误 和 过 度 医疗 等 情况 有 效 减 少 ， 为 实现 了 医 
疗 资源 的 精细 化 管理 黄 定 坚实 基础 。 同 时 ， 随 着 智慧 医疗 的 智能 水 平 的 提升 ， 
医疗 资源 的 利用 率 得 以 提升 ， 医 院 人 力 物力 成 本 不 断 减 少 ， 医 疗 资源 的 分 配 和 
利用 更 加 合理 ， 医 患 关系 得 以 改善 。 


3.2 智慧 医疗 个 性 化 
个 体 间 的 差异 性 导致 在 治疗 疾病 个 体 的 过 程 中 须根 据 其 个 体 独 特 的 生化 、 
生理 、 环 境 暴 露 和 行为 特征 [进行 诊断 、 预 防 和 治疗 与 健康 相关 的 疾病 [9 并 对 
其 制定 有 针对 性 的 治疗 和 预防 计划 094。 个 性 化 医疗 通过 利用 人 工 智 能 和 大 数据 
等 技术 使 患者 获得 更 加 高 效 、 安 全 、 精 准 的 医疗 服务 的 方式 。 如 Dignio 平台 通 
过 收集 患者 身体 指标 并 对 其 分 配 相 适应 的 药物 ,Medicio 可 以 为 患者 提供 处 方 的 


多 种 药物 的 个 性 化 工具 包 ! 74 通过 平台 个 性 化 医疗 服务 对 患者 的 病史 、 症 状 、 生 
理 指标 等 数据 进行 深度 分 析 和 挖掘 ， 为 患者 提供 个 性 化 的 医疗 服务 ， 提 高 医疗 
精准 度 。 


3.3 智慧 医疗 数字 化 

智慧 医疗 的 数字 化 包括 远程 医疗 、 医 疗 大 数据 、 深 度 学 习 、 电 子 病 历 等 方 
面 (99。 电 子 病历 是 数字 化 医疗 的 核心 ， 它 可 以 帮助 医生 更 好 地 了 解 患者 的 疾病 
情况 ， 制 定 治疗 方案 ， 也 能 够 实现 医疗 资源 的 共享 和 患者 数据 的 安全 管理 。 此 
外 ， 远 程 医疗 也 是 智慧 医疗 数字 化 的 一 个 重要 方面 ， 它 可 以 通过 网 络 实现 医生 
和 患者 的 远程 交流 和 诊断 ， 从 而 提高 医疗 服务 的 效率 和 质量 。 而 医疗 大 数据 的 
应 用 则 可 以 帮助 医院 和 医疗 机 构 更 好 地 了 解 患者 的 疾病 情况 ， 优 化 医疗 服务 流 
程 ， 提 高 服务 质量 和 效率 。 医 疗 大 数据 的 应 用 也 为 医疗 行业 的 未 来 发 展 提供 了 
更 多 的 可 能 性 ， 例 如 ， 通 过 对 大 量 患者 数据 的 分 析 和 挖掘 ， 可 以 发 现 新 的 疾病 
治疗 方法 和 药物 ， 为 患者 的 治疗 带 来 新 的 希望 。 


四 、 总 结 与 建议 
4.1 研究 总 结 

本 研究 通过 berTopic 模型 对 智慧 医疗 主题 进行 挖掘 及 可 视 化 分 析 ， 发 现 智 
慧 医疗 在 未 来 五 年 的 相关 文献 发 文 量 持 上 升 趋势 ， 及 涵盖 了 智能 化 、 个 性 化 、 
数字 化 三 个 方向 ， 并 以 信息 技术 、 人 工 智 能 、 数 字 化 等 技术 为 支撑 提高 医疗 服 
务 水 平 。 


智慧 医疗 的 相关 主题 呈 多 元 化 ， 但 2022 年 之 后 都 出 现 不 同 程 度 的 下 降 趋势 ， 
这 可 能 与 技术 的 挑战 、 数 据 的 隐私 、 该 领域 的 相关 法 律 法 规 和 监管 环境 以 及 成 
本 和 可 持续 等 原因 有 关 。 


4.2 研究 建议 

首先 ， 在 基础 设施 建设 方面 ， 应 积极 加 强 智能 化 基础 设施 的 建设 ， 推 广 相 
关 设 备 与 及 系统 的 应 用 ， 积 极 加强 智 能 设备 与 系统 的 引进 与 研发 工作 ， 提 高 
疗 技术 水 平和 医疗 质量 。 还 需 对 医护 人 员 进 行 智能 技术 培训 ， 提 高 他 们 对 智能 
化 设备 和 系统 的 认识 和 理解 ， 从 而 最 大 化 发 挥 智能 化 设备 和 系统 的 作用 ， 以 提 


高 诊断 准确 率 和 治疗 效果 。 


其 次 ， 应 建立 健全 相关 的 法 律 法 规 及 监管 制度 。 不 同 医 疗 机 构 之 间 的 数据 
互通 和 共享 ， 确 保 数据 的 安全 性 。 建 立 完善 的 数据 清洗 和 验证 机 制 ， 为 后 续 的 
数据 分 析 提 供 强 有 力 的 保障 。 


此 外 ， 国 家 应 加 强 相 关 政 策 保障 以 及 财政 支持 力度 鼓励 医疗 机 构 使 用 数字 
化 工具 和 技术 ， 如 电子 病历 、 远 程 医疗 、 移 动 医疗 、 可 穿戴 设备 等 ， 提 高 医疗 
服务 的 效率 和 质量 。 


最 后 ， 应 健全 智慧 医疗 服务 评价 体系 ， 通 过 线 上 平台 亦 或 者 线 下 问卷 、 电 
话 访问 等 方式 ， 获 取 患 者 就 医 体 验 ， 医 疗 机构 应 及 时 总 结 问题 及 解决 措施 加 以 
改正 。 并 加 强 相 关 人 才 塔 养 ， 加 快 智 意 医疗 发 展 。 
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